max rank | avg. rank | sentence |
---|---|---|
79 | 52.8750 | به نظر من دو کار بايد انجام شود. |
90 | 44.7778 | اگر که قرار است مردم در انتخابات شرکت کنند. |
108 | 59.7143 | نیز در جامعه ایران امروز اشاره کرد. |
115 | 54.8571 | در هر حال نفت ايران ملی شد. |
125 | 48.0000 | آنها هم اين کار را کردند. |
212 | 60.0000 | به اين صورت نمی شود گفت. |
218 | 99.6000 | و اقتصاد ایران ارائه کند. |
224 | 94.8571 | در عراق وزارت حقوق بشر وجود دارد. |
230 | 53.2500 | نه اين است نه آن ولی هم اين است و هم آن! |
247 | 84.8571 | در حال کار روی این طرح هستند. |
279 | 101.8333 | چون جمهوری اسلامی در قدرت است. |
281 | 90.5000 | قرار است که تمام مردم حضور داشته باشند. |
327 | 93.8571 | تنها در آمریکا در حال استفاده است. |
341 | 109.0000 | قانون را بايد اصلاح کرد. |
344 | 109.8333 | در اين كار او تنها نيست. |
349 | 138.4545 | بیش از دو هفته دیگر دور دوم انتخابات آغاز خواهد شد. |
351 | 138.9091 | هم زمان با توسعه جامعه این مشکلات نیز حل خواهند شد. |
352 | 142.2500 | سازمان بین المللی کار نیز بر اصلاح قانون کار ایران تاکید دارد. |
376 | 118.6667 | نظام سياسی که مورد حمايت دولت آمريکا قرار داشت. |
379 | 200.7500 | رئيس جمهور بايد جمهور مردم را اداره کند. |
380 | 172.1667 | جلسه حدود یک ساعت ادامه داشت. |
390 | 115.4000 | قرار بود مردم حکومت کنند. |
395 | 137.8000 | وزیر امور خارجه جمهوری اسلامی افزود: "پاسخ ما مشخص است. |
400 | 112.3846 | در حال حاضر روند کار و بررسی این پرونده در حال انجام است. |
406 | 273.2000 | دليل آن تاکنون مشخص نشده. |
412 | 264.0000 | دانشجويان دانشگاه آزاد! |
417 | 112.2000 | امروز هم ايران نمی تواند اين کار را انجام دهد. |
417 | 138.4000 | آمريکا می تواند در اين زمينه به ايران کمک کند. |
424 | 203.8000 | وضعيت بين المللی ايران بدون توجه به وضعيت حقوق بشر ايران غير قابل حل است. |
435 | 187.0000 | بیشتر کشورهای اسلامی باشد. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II